智能论文笔记

Fast and Precise Binary Instance Segmentation of 2D Objects for Automotive Applications

Darshan Ganganna Ravindra , Laslo Dinges , Al-Hamadi Ayoub , Vasili Baranau

分类：计算机视觉

2022-08-24

在本文中，我们专注于改进二进制2D实例细分，以帮助人类用多边形标记地面真相数据集。人类的标签只需要在物体周围绘制盒子，然后自动生成多边形。为了有用，我们的系统必须实时运行CPU。二进制实例细分的最常见方法涉及编码器折叠网络。本报告评估了最先进的编码器 - 码头网络，并提出了一种使用这些网络改善实例分割质量的方法。除了网络体系结构的改进之外，我们提出的方法还依靠为网络输入，所谓的极端点（即对象轮廓上的最外部点）提供额外的信息。用户可以几乎尽快给它们标记它们，而不是边界框。边界框也可以从极端点推导。与其他最先进的编码器网络相比，此方法可产生更好的IOU，并且在将其部署在CPU上时也足够快。

translated by 谷歌翻译

HTML版本

Surya Namaskar: real-time advanced yoga pose recognition and correction for smart healthcare

Abhishek Sharma , Pranjal Sharma , Darshan Pincha , Prateek Jain

分类：计算机视觉

2022-09-06

如今，瑜伽因现代生活方式的压力增加而受到全世界的关注，并且学习瑜伽有很多方法或资源。瑜伽一词意味着思想和身体之间的深厚联系。今天，有大量的医学和科学证据表明，我们大脑活动的基本面，我们的化学甚至可以通过练习不同的瑜伽系统来改变我们的化学。 Suryanamaskar，也被称为“向太阳致敬”，是一种瑜伽练习，结合了八种不同的形式和12个体式（4个Asana重复），专门介绍了印度太阳神Surya。 Suryanamaskar提供了许多健康益处，例如增强肌肉和帮助控制血糖水平。在这里，MediaPipe库用于分析Surya Namaskar的情况。高级软件可以实时检测到站立，因为人们在相机前表演了Surya Namaskar。班级分隔器将该表格识别为以下一项：pranamasana，hasta padasana，hasta uttanasana，ashwa -Sanchalan Asana，Ashtanga Namaskar，Dandasana或Bhujangasana和Svanasana。基于深度学习的技术（CNN）用于开发该模型，模型精度为98.68％，精度得分为0.75，以检测正确的瑜伽（Surya Namaskar）姿势。使用此方法，用户可以练习所需的姿势，并可以检查该人所做的姿势是否正确。它将有助于正确地做Surya Namaskar的所有不同姿势，并提高瑜伽从业者的效率。本文描述了将在模型中实现的整个框架。

translated by 谷歌翻译

Dynamic Adaptive Threshold based Learning for Noisy Annotations Robust Facial Expression Recognition

Darshan Gera , Naveen Siva Kumar Badveeti , Bobbili Veerendra Raj Kumar , S Balasubramanian

分类：计算机视觉 | 人工智能

2022-08-22

现实世界的面部表达识别（FER）数据集遭受吵闹的注释，由于众包，表达式的歧义，注释者的主观性和类间的相似性。但是，最近的深层网络具有强大的能力，可以记住嘈杂的注释导致腐蚀功能嵌入和泛化不良的能力。为了处理嘈杂的注释，我们提出了一个动态FER学习框架（DNFER），其中根据训练过程中的动态类特定阈值选择了干净的样品。具体而言，DNFER基于使用选定的干净样品和使用所有样品的无监督培训的监督培训。在训练过程中，每个微型批次的平均后类概率被用作动态类特异性阈值，以选择干净的样品进行监督训练。该阈值与噪声率无关，与其他方法不同，不需要任何干净的数据。此外，要从所有样品中学习，使用无监督的一致性损失对齐弱调节图像和强大图像之间的后验分布。我们证明了DNFER在合成和实际噪声注释的FER数据集（如RaFDB，Ferplus，Sfew和altimpnet）上的鲁棒性。

translated by 谷歌翻译

SS-MFAR : Semi-supervised Multi-task Facial Affect Recognition

Darshan Gera , Badveeti Naveen Siva Kumar , Bobbili Veerendra Raj Kumar , S Balasubramanian

分类：计算机视觉

2022-07-19

自动情感识别在许多领域都有应用，例如教育，游戏，软件开发，汽车，医疗保健等。但是，在野外数据集上实现可观的绩效是无琐的任务。野外数据集虽然比合成数据集更好地代表了现实世界中的情况，但前者遇到了不完整标签的问题。受到半监督学习的启发，在本文中，我们在第四次情感行为分析（ABAW）2022竞赛中介绍了提交的多任务学习挑战。在这项挑战中考虑的三个任务是价估计（VA）估计，表达式分为6个基本（愤怒，厌恶，恐惧，幸福，悲伤，惊喜），中立和“其他”类别和12个行动单位（au）编号au - \ {1,2,4,6,7,10,12,15,15,23,24,25,26 \}。我们的方法半监督的多任务面部情感情感识别标题为\ textbf {ss-mfar}使用一个深层残留网络，每个任务都具有特定任务分类器以及每个表达式类别的自适应阈值，每个表达式类别和半监督学习。源代码可从https://github.com/1980x/abaw20222dmacs获得。

translated by 谷歌翻译

Non-Linear Pairwise Language Mappings for Low-Resource Multilingual Acoustic Model Fusion

Muhammad Umar Farooq , Darshan Adiga Haniya Narayana , Thomas Hain

分类：自然语言处理

2022-07-07

多语言语音识别已引起大幅关注，作为补偿低资源语言数据稀缺性的有效方法。端到端（E2E）建模比常规混合系统优选，这主要是由于没有词典要求。但是，在有限的数据方案中，混合DNN-HMM仍然优于E2E模型。此外，手动词典创建的问题已通过公开训练的素式训练型（G2P）（G2P）和多种语言的IPA音译来缓解。在本文中，在低资源语言的多语言设置中提出了一种混合DNN-HMM声学模型的新型方法。针对目标语言语言信号的不同单语言模型的后验分布融合在一起。为每个源目标语言对训练了一个单独的回归神经网络，以将后者从源声学模型转换为目标语言。与ASR培训相比，这些网络需要非常有限的数据。与多语言和单语基线相比，后融合的相对增益分别为14.65％和6.5％。跨语性模型融合表明，无需使用依赖语言的ASR的后代，就可以实现可比的结果。

translated by 谷歌翻译

CEN : Cooperatively Evolving Networks

Sobhan Babu , Ravindra Guravannavar

分类：机器学习

2022-07-05

有限重复的游戏是一个充满活力的游戏，在该游戏中，同时玩的游戏有限多次。GAN包含两个竞争模块：对发电机模块进行了训练以生成新的示例，并训练了判别器模块以区分真实示例与生成的示例。GAN的训练过程是一个有限重复的游戏，每个模块都试图以非合作方式在每个同时游戏的情况下优化其错误。我们观察到，如果在同时游戏的每个实例中，更强大的模块与较弱的模块合作，并且只有较弱的模块只能优化其错误。

translated by 谷歌翻译

Manifold Alignment-Based Multi-Fidelity Reduced-Order Modeling Applied to Structural Analysis

Christian Perron , Darshan Sarojini , Dushhyanth Rajaram , Jason Corman , Dimitri Mavris

分类：机器学习

2022-06-14

这项工作介绍了最近开发的参数，非侵入性和多余性降低的建模方法在高维位移和应力场上的应用，这是由于几何分析的结构分析而引起的，这些几何形状分析在离散化和结构拓扑的规模上不同。提出的方法通过将其解决方案分别投射到公共子空间中，利用了歧管对齐方式将不一致的现场输出融合不一致的场输出。该方法的有效性在两个多保真场景上得到了证明，涉及基准翼几何形状的结构分析。结果表明，使用不兼容的网格或相关但不同的拓扑结构的结构模拟输出很容易组合为单个预测模型，从而消除了对数据进行其他预处理的需求。与单性模型相比，新的多保真降低模型以较低的计算成本获得了相对较高的预测精度。

translated by 谷歌翻译

Learning Speaker-specific Lip-to-Speech Generation

Munender Varshney , Ravindra Yadav , Vinay P. Namboodiri , Rajesh M Hegde

分类：计算机视觉

2022-06-04

对于普通人来说，了解唇部运动并从中推断出讲话是很困难的。准确的唇部阅读的任务从说话者的各种线索及其上下文或环境环境中获得帮助。每个演讲者都有不同的口音和说话风格，可以从他们的视觉和语音功能中推断出来。这项工作旨在了解语音和单个说话者在不受约束和大型词汇中的嘴唇运动顺序之间的相关性/映射。我们将帧序列建模为在自动编码器设置中的变压器之前，并学会了利用音频和视频的时间属性的关节嵌入。我们使用深度度量学习学习时间同步，这指导解码器与输入唇部运动同步生成语音。因此，预测性后部为我们提供了以说话者的说话风格产生的演讲。我们已经在网格和LIP2WAV化学讲座数据集上训练了模型，以评估在不受限制的自然环境中唇部运动的单个扬声器自然语音生成任务。使用人类评估的各种定性和定量指标进行了广泛的评估还表明，我们的方法在几乎所有评估指标上都优于lip2wav化学数据集（在不受约束的环境中的大词汇）（在不受约束的环境中的大词汇），并且在边缘上胜过了较大的范围。网格数据集。

translated by 谷歌翻译

Centralized Fairness for Redistricting

Seyed A. Esmaeili , Darshan Chakrabarti , Hayley Grape , Brian Brubach

分类：人工智能

2022-03-02

In representative democracy, the electorate is often partitioned into districts with each district electing a representative. Unfortunately, these systems have proven vulnerable to the practice of partisan gerrymandering. As a result, methods for detecting gerrymandered maps were introduced and have led to significant success. However, the question of how to draw district maps in a principled manner remains open with most of the existing literature focusing on optimizing certain properties such as geographical compactness or partisan competitiveness. In this work, we take an alternative approach which seeks to find the most "typical" redistricting map. More precisely, we introduce a family of well-motivated distance measures over redistricting maps. Then, by generating a large collection of maps using sampling techniques, we select the map which minimizes the sum of the distances from the collection, i.e., the most "central" map. We produce scalable, linear-time algorithms and derive sample complexity guarantees. We show that a by-product of our approach is the ability to detect gerrymandered maps as they are found to be outlier maps in terms of distance.

translated by 谷歌翻译

An Empirical Investigation of the Role of Pre-training in Lifelong Learning

Sanket Vaibhav Mehta , Darshan Patil , Sarath Chandar , Emma Strubell

分类：机器学习 | 人工智能 | 自然语言处理 | 计算机视觉

2021-12-16

机器学习中的终身学习范式是一个有吸引力的替代方案，不仅是由于其与生物学学习的相似之处，而且它通过避免过度模型重新训练来减少能量浪费的可能性。对此范式的关键挑战是灾难性遗忘的现象。随着在机器学习中训练有素的模型的越来越受欢迎和成功，我们提出了问题：终身学习中的训练前比赛，特别是关于灾难性的遗忘？我们在大型预先训练模型的上下文中调查现有方法，并在各种文本和图像分类任务中评估其性能，包括使用15个不同的NLP任务的新型数据集进行大规模研究。在所有设置中，我们观察到，通用预训练隐含地减轻了在与随机初始化模型相比依次学习多个任务时灾难性忘记的影响。然后，我们进一步调查为什么预先训练缓解在这个环境中忘记。我们通过分析损失景观来研究这种现象，发现预先训练的重量似乎可以通过导致更宽的最小值来缓解遗忘。基于这一洞察力，我们提出了对当前任务损失和损失盆地锐利的共同优化，以便在连续微调期间明确鼓励更广泛的盆地。我们表明，这种优化方法导致与跨多个设置的任务顺序持续学习的性能相当，而无需保留具有任务数量的大小的内存。

translated by 谷歌翻译